智能论文笔记

HierarchyFL: Heterogeneous Federated Learning via Hierarchical Self-Distillation

Jun Xia , Yi Zhang , Zhihao Yue , Ming Hu , Xian Wei , Mingsong Chen

分类：机器学习

2022-12-05

Federated learning (FL) has been recognized as a privacy-preserving distributed machine learning paradigm that enables knowledge sharing among various heterogeneous artificial intelligence (AIoT) devices through centralized global model aggregation. FL suffers from model inaccuracy and slow convergence due to the model heterogeneity of the AIoT devices involved. Although various existing methods try to solve the bottleneck of the model heterogeneity problem, most of them improve the accuracy of heterogeneous models in a coarse-grained manner, which makes it still a great challenge to deploy large-scale AIoT devices. To alleviate the negative impact of this problem and take full advantage of the diversity of each heterogeneous model, we propose an efficient framework named HierarchyFL, which uses a small amount of public data for efficient and scalable knowledge across a variety of differently structured models. By using self-distillation and our proposed ensemble library, each hierarchical model can intelligently learn from each other on cloud servers. Experimental results on various well-known datasets show that HierarchyFL can not only maximize the knowledge sharing among various heterogeneous models in large-scale AIoT systems, but also greatly improve the model performance of each involved heterogeneous AIoT device.

translated by 谷歌翻译

FusionPortable: A Multi-Sensor Campus-Scene Dataset for Evaluation of Localization and Mapping Accuracy on Diverse Platforms

Jianhao Jiao , Hexiang Wei , Tianshuai Hu , Xiangcheng Hu , Yilong Zhu , Zhijian He , Jin Wu , Jingwen Yu , Xupeng Xie , Huaiyang Huang

分类：机器人

2022-08-25

组合多个传感器使机器人能够最大程度地提高其对环境的感知意识，并增强其对外部干扰的鲁棒性，对机器人导航至关重要。本文提出了可融合的基准测试，这是一个完整的多传感器数据集，具有多种移动机器人序列。本文提出了三项贡献。我们首先推进便携式和通用的多传感器套件，可提供丰富的感官测量值：10Hz激光镜点云，20Hz立体声框架图像，来自立体声事件相机的高速率和异步事件，来自IMU的200Hz惯性读数以及10Hz GPS信号。传感器已经在硬件中暂时同步。该设备轻巧，独立，并为移动机器人提供插件支持。其次，我们通过收集17个序列来构建数据集，该序列通过利用多个机器人平台进行数据收集来涵盖校园上各种环境。一些序列对现有的SLAM算法具有挑战性。第三，我们为将本地化和映射绩效评估提供了基础真理。我们还评估最新的大满贯方法并确定其局限性。该数据集将发布由原始传感器的设置，地面真相，校准数据和评估算法组成：https：//ram-lab.com/file/site/site/multi-sensor-dataset。

translated by 谷歌翻译

HTML版本

FedMR: Fedreated Learning via Model Recombination

Ming Hu , Zhihao Yue , Zhiwei Ling , Xian Wei , Mingsong Chen

分类：机器学习

2022-08-16

作为一种有希望的隐私机器学习方法，联合学习（FL）可以使客户跨客户培训，而不会损害其机密的本地数据。但是，现有的FL方法遇到了不均分布数据的推理性能低的问题，因为它们中的大多数依赖于联合平均（FIDAVG）基于联合的聚合。通过以粗略的方式平均模型参数，FedAvg将局部模型的个体特征黯然失色，这极大地限制了FL的推理能力。更糟糕的是，在每一轮FL培训中，FedAvg向客户端向客户派遣了相同的初始本地模型，这很容易导致对最佳全局模型的局限性搜索。为了解决上述问题，本文提出了一种新颖有效的FL范式，名为FEDMR（联合模型重组）。与传统的基于FedAvg的方法不同，FEDMR的云服务器将收集到的本地型号的每一层层混合，并重组它们以实现新的模型，以供客户端培训。由于在每场FL比赛中进行了细粒度的模型重组和本地培训，FEDMR可以迅速为所有客户找出一个全球最佳模型。全面的实验结果表明，与最先进的FL方法相比，FEDMR可以显着提高推理准确性而不会引起额外的通信开销。

translated by 谷歌翻译

Neuro-Symbolic Learning: Principles and Applications in Ophthalmology

Muhammad Hassan , Haifei Guan , Aikaterini Melliou , Yuqi Wang , Qianhui Sun , Sen Zeng , Wen Liang , Yiwei Zhang , Ziheng Zhang , Qiuyue Hu

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-31

近年来，随着新颖的策略和应用，神经网络一直在迅速扩展。然而，尽管不可避免地会针对关键应用程序来解决这些挑战，例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此，出现了神经符号学习（Nesyl）概念，其中结合了符号表示的各个方面，并将常识带入神经网络（Nesyl）。在可解释性，推理和解释性至关重要的领域中，例如视频和图像字幕，提问和推理，健康信息学和基因组学，Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查，其原理，机器和深度学习算法的进步，诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。

translated by 谷歌翻译

When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning

Haoyi Niu , Shubham Sharma , Yiwen Qiu , Ming Li , Guyue Zhou , Jianming Hu , Xianyuan Zhan

分类：机器学习 | 人工智能

2022-06-27

在没有高保真模拟环境的情况下，学习有效的加强学习（RL）政策可以解决现实世界中的复杂任务。在大多数情况下，我们只有具有简化动力学的不完善的模拟器，这不可避免地导致RL策略学习中的SIM到巨大差距。最近出现的离线RL领域为直接从预先收集的历史数据中学习政策提供了另一种可能性。但是，为了达到合理的性能，现有的离线RL算法需要不切实际的离线数据，并具有足够的州行动空间覆盖范围进行培训。这提出了一个新问题：是否有可能通过在线RL中的不完美模拟器中的离线RL中的有限数据中的学习结合到无限制的探索，以解决两种方法的缺点？在这项研究中，我们提出了动态感知的混合离线和对线增强学习（H2O）框架，以为这个问题提供肯定的答案。 H2O引入了动态感知的政策评估方案，该方案可以自适应地惩罚Q函数在模拟的状态行动对上具有较大的动态差距，同时也允许从固定的现实世界数据集中学习。通过广泛的模拟和现实世界任务以及理论分析，我们证明了H2O与其他跨域在线和离线RL算法相对于其他跨域的表现。 H2O提供了全新的脱机脱机RL范式，该范式可能会阐明未来的RL算法设计，以解决实用的现实世界任务。

translated by 谷歌翻译

Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

Jun Chen , Ming Hu , Boyang Li , Mohamed Elhoseiny

分类：计算机视觉

2022-06-01

对计算机视觉的自我监督学习取得了巨大的进步，并改善了许多下游视觉任务，例如图像分类，语义细分和对象检测。其中，诸如MAE和Beit之类的生成性自我监督的视力学习方法显示出令人鼓舞的表现。但是，它们的全球掩盖重建机制在计算上是要求的。为了解决这个问题，我们提出了本地蒙版重建（LOMAR），这是一种简单而有效的方法，在一个简单的变压器编码器上的7 $ \ times $ 7补丁中执行蒙版重建，从而提高了效率和准确性之间的权衡。在整个图像上全局掩盖重建。广泛的实验表明，Lomar在Imagenet-1K分类方面达到了84.1％的TOP-1准确性，优于MAE的MAE比0.5％。在以384 $ \ times $ 384的图像为审计的LOMAR进行了预审经后，它可以达到85.4％的TOP-1准确性，超过MAE的0.6％。在MS Coco上，Lomar在0.5 $ \ text {ap}^\ text {box} $上以0.5 $ \ text {ap}^\ text {box} $的优势在对象检测上和0.5 $ \ text {ap}^\ text^\ text {bask} $上的实例段上。 Lomar在预处理的高分辨率图像上特别有效，例如，它比MAE快3.1 $ \ times $，分类准确性为448 $ \ times $ 448 $ 448。这种本地掩盖的重建学习机制可以轻松地集成到任何其他生成的自我监督学习方法中。我们的代码可在https://github.com/junchen14/lomar中公开获得。

translated by 谷歌翻译

Utilizing Language-Image Pretraining for Efficient and Robust Bilingual Word Alignment

Tuan Dinh , Jy-yong Sohn , Shashank Rajput , Timothy Ossowski , Yifei Ming , Junjie Hu , Dimitris Papailiopoulos , Kangwook Lee

分类：自然语言处理 | 机器学习

2022-05-23

Word translation without parallel corpora has become feasible, rivaling the performance of supervised methods. Recent findings have shown that the accuracy and robustness of unsupervised word translation (UWT) can be improved by making use of visual observations, which are universal representations across languages. In this work, we investigate the potential of using not only visual observations but also pretrained language-image models for enabling a more efficient and robust UWT. Specifically, we develop a novel UWT method dubbed Word Alignment using Language-Image Pretraining (WALIP), which leverages visual observations via the shared embedding space of images and texts provided by CLIP models (Radford et al., 2021). WALIP has a two-step procedure. First, we retrieve word pairs with high confidences of similarity, computed using our proposed image-based fingerprints, which define the initial pivot for the word alignment. Second, we apply our robust Procrustes algorithm to estimate the linear mapping between two embedding spaces, which iteratively corrects and refines the estimated alignment. Our extensive experiments show that WALIP improves upon the state-of-the-art performance of bilingual word alignment for a few language pairs across different word embeddings and displays great robustness to the dissimilarity of language pairs or training corpora for two word embeddings.

translated by 谷歌翻译

Physics Guided Deep Learning for Generative Design of Crystal Materials with Symmetry Constraints

Yong Zhao , Edirisuriya M. Dilanga Siriwardane , Zhenyao Wu , Nihang Fu , Mohammed Al-Fahdi , Ming Hu , Jianjun Hu

分类：机器学习

2022-03-27

发现新材料是一项艰巨的挑战，对人类社会的进步至关重要。基于反复试验实验和计算模拟的常规方法是劳动密集型或昂贵的，取决于专家的启发式知识，成功的方式很大。最近，通过从已知材料数据集中学习隐式知识来生成材料的生成设计模型。但是，这些模型要么适用于特定的材料系统，要么由于其未能将物理规则纳入其模型训练过程而较低。在这里，我们提出了一种基于深度学习的物理学指导的晶体生成模型（PGCGM），以实现具有高结构多样性（多达20种不同空间组）的有效生成材料设计。我们模型的高性能表明了其捕获和利用晶体的对称约束和邻居原子之间的成对原子距离约束的能力。使用数据增强和空间原子聚类和合并，我们的PGCGM模型将整体生成有效性的性能提高了700 \％以上，与FTCP相比，FTCP是最先进的结构生成器之一，与45 \％相比，我们的整体生成有效性性能提高了。我们以前的立方体模型。新生成的晶体材料在原子空间分布和组成多样性方面也显示出更高的质量。我们通过密度功能理论（DFT）计算进一步验证了新的晶体结构。 2,000个中的1,869材料成功地优化了，其中39.6％的形成能量为阴性，5.3 \％的能量库船长小于0.25 eV/原子，表明它们的热力学稳定性和潜在的合成性。 1,869个晶体结构已沉积到卡罗来纳州材料数据库\ url {www.carolinamatdb.org}。

translated by 谷歌翻译

FAR: Fourier Aerial Video Recognition

Divya Kothandaraman , Tianrui Guan , Xijun Wang , Sean Hu , Ming Lin , Dinesh Manocha

分类：计算机视觉

2022-03-21

我们提出了一种算法，即傅立叶活动识别（FAR），以供无人机视频活动识别。我们的配方使用一种新颖的傅立叶对象分解方法将人类剂（通常很小）与背景区分开。我们的分离技术在频域中运行，以表征空间像素的时间变化的程度，并利用傅立叶变换的卷积 - 倍增性属性，以将此表示形式映射到从网络中获得的相应对象背景纠缠的特征。为了封装上下文信息和远程时空依赖性，我们提出了一种新颖的傅立叶注意算法，该算法通过对频域中的加权外产物进行建模来模仿自我注意的好处。我们的傅立叶注意力表述比自我注意力所使用的计算要少得多。我们已经在多个无人机数据集上评估了我们的方法，包括无人机人RGB，无人机人类夜，无人机动作和NEC无人机。我们证明，在前1位的准确性中，相对改善为8.02％-38.69％，并且在先前的工作中的相对提高了3倍。

translated by 谷歌翻译

Interactive Model with Structural Loss for Language-based Abductive Reasoning

Linhao Li , Ming Xu , Yongfeng Dong , Xin Li , Ao Wang , Qinghua Hu

分类：自然语言处理 | 人工智能

2021-12-01

建议绑架自然语言推理任务（$ \ alpha $ NLI）以推断出原因与事件之间的最合理的解释。在$ \ Alpha $ NLI任务中，给出了两个观察，并要求最合理的假设从候选人中挑出。现有方法将每个候选假说之间的关系进行分别统一地惩罚推理网络。在本文中，我们认为不必区分正确假设之间的推理能力;同样，在解释观察的原因时，所有错误的假设都会有所贡献。因此，我们建议小组而不是排名假设和设计本文中称为“联合软制焦点”的结构损失。基于观察，假设通常与语义相关，我们设计了一种新颖的互动语言模型，旨在利用竞争假设之间丰富的互动。我们为$ \ alpha $ nli命名这个新型号：具有结构丢失（IMSL）的交互式模型。实验结果表明，我们的IMSL已经在罗伯塔大型预磨削模型上实现了最高性能，ACC和AUC结果分别增加了约1 \％和5 \％。

translated by 谷歌翻译